CI 묻고 답하기

제목 오랜만에 파싱 질문 드립니다..
카테고리 CI 2, 3
글쓴이 하늘치 작성시각 2020/09/08 18:22:17
댓글 : 2 추천 : 0 스크랩 : 0 조회수 : 11695   RSS
안녕하세요.
코로나로 참 힘든 시기네요..

다름이 아니라, 파싱 방법에 대해 조언을 구하려 합니다.

아마도.. 작년까지만 해도 트위터의 사용자 첫화면을 일반 php 파싱으로 데이터를 가져오는 게 가능했는데요.

그게 언제부턴가 안되서 iframe 으로 보여주기식으로 했었는데,

이제는 그것마저도 막힌듯합니다.

혹시 네이버의 검색 페이지나 트위터의 특정 페이지를 php 와 자바스크립트로 파싱해 보신 분이 계신가요??
아마도 포털들의 페이지가 비동기식으로 바뀌면서 전통적인 파싱이 안되는 것 같기도 합니다만,

제 지식으로는 더 이상 파싱해서 웹에서 바로 보여주는 게 불가능하네요. 파싱 자료를 재가공해서 서비스하는 게 아니라 개인적으로만 보는 거라 큰 문제는 없을 것 같습니다만..

암튼 다른 파싱 방법을 알 수 없을까 해서 글 남겨봅니다.
태그 파싱,트위터,네이버
 다음글 session->flashdata 가 사라지지 않... (2)
 이전글 URL에 . .. ... 입력 질문드립니다. (4)

댓글

한대승(불의회상) / 2020/09/09 12:48:25 / 추천 0

ajax와 js 영역은 이제 node.js로 처리해야 하나 봅니다.

옛날이 그립군요.

하늘치 / 2020/09/09 13:08:30 / 추천 0

@한대승

역시.. 그런가보군요;

답변 감사합니다.

 

참고로..

php 웹크롤링 관련하여 검색해봤던 링크들 남겨봅니다..

 

https://medium.com/@masoudjahromi/what-are-the-best-ways-to-crawl-a-website-eb7d8aa5108b

https://goutte.readthedocs.io/en/latest/

https://dzone.com/articles/8-awesome-php-web-scraping-libraries-and-tools

https://packagist.org/packages/spatie/crawler